3.4 Introduction to k-fold Cross-Validation
sometimes also called "rotation estimation" in older literature (3.3)
think of cross-validation as a crossing over of training and validation stages in successive rounds.
trainとtestに分割するホールドアウト法を交差検証と言及する実務家や研究者もいるが
「交差検証を連続的なラウンドでの訓練ステージと検証ステージの乗り換えとして考える」(ことにはもっと意味がある)
the main idea behind cross-validation is that each sample in our dataset has the opportunity of being tested.
「交差検証の主なアイデアは、データセットのどのサンプルもテストデータとなる機会を持つ」
モデル評価のためのk-fold 交差検証
1. データセットをk個の部分に分ける
2. 1つのパートを検証セットとし(validation fold)、残りのk-1個を訓練セットとして(training fold)、モデル評価をする
モデル評価に交差検証を使う場合、学習アルゴリズムは固定されたハイパーパラメタ設定で使う
k個の異なるモデルが訓練される
we compute the cross-validation performance as the arithmetic mean over the k performance estimates from the validation sets.
「交差検証の性能は、検証セットからの汎化性能見積りk個にわたる算術平均とする」(Figure 13のA)
(感想:Kaggleで見かける、検証セットを推論させてk-fold分合体させたものを検証セットのラベル全体と合わせるのも算術平均と同じ効果? TODO)
2分割ホールドアウト法とk-fold交差検証の違い
k-fold cross-validation uses all data for training and testing.
「全てのデータを訓練にもテストにも使う」
より多くの訓練データを使うことで悲観的なバイアスに対処する
test folds in k-fold cross-validation are not overlapping
「テストフォールドに重なりがない」
repeatedホールドアウト法ではいくつかのサンプルはテストセットに現れないかもしれないが、交差検証では各サンプルが検証に使われることが保証される